MXFP4量化:如何在80GB GPU上运行1200亿参数的GPT-OSS模型 大型语言模型(Large Language Models, LLMs)如GPT-OSS、GPT-4、LLaMA和Mixtral的快速发展显著提升了人工智能的能力边界,但同时也带来了严峻的内存资源挑战。以1200亿参数的模型为例,在FP16精度下仅权重存储就需要 模型 gpu moe 内存带宽 mxfp4 2025-09-14 07:08 6